شکست هوش مصنوعی در برابر برخی از عملکرهایش
پژوهشگران دریافتند هوش مصنوعی با بهره بردن از چیزی به نام «یادگیری تقویتی» میتواند خودش را بهبود ببخشد اما برای حل مسائلی که انسان میتواند تقریباً فوراً آنها را حل کند، زمان و دادههای زیادی نیاز دارد.
به گزارش
خبرگزاری صدا و سیما، پژوهشگران میگویند هوش مصنوعی با بهره بردن از چیزی به نام «یادگیری تقویتی» میتواند خودش را بهبود ببخشد و به عنوان مثال بازیهای آتاری را ۶۰۰۰ برابر سریعتر از قبل یاد بگیرد و انجام دهد.
چیزهای زیادی وجود دارند که مدلهای هوش مصنوعی در آنها خوب هستند، اما یکی از چیزهایی که در آن عملکرد مطلوبی ندارند، یادگیری کارآمد است و برای حل مسائلی که انسان میتواند تقریباً فوراً آنها را حل کند، زمان و دادههای زیادی نیاز دارند.
به نقل از انگجت، اکنون پژوهشگران دریافتهاند که خواندن دستورالعملهای هوش مصنوعی قبل از انجام یک کار میتواند مهارتهای یادگیری آنها را تسریع کند. این راهکار، «یادگیری تقویتی» نامیده میشود و شامل تعیین هدف و پاداش دادن به هوش مصنوعی برای انجام اقداماتی است که به رسیدن به آن هدف کمک میکند.
با این که این روش مؤثر است، اما برای یافتن یک استراتژی کارآمد به آزمون و خطا متکی است. این بدان معناست که این الگوریتمها ممکن است سالها طول بکشند تا یک فرمول برنده را پیدا کنند.
بر اساس گزارشی که به تازگی منتشر شده است، اکنون گروهی از دانشگاه کارنگی ملون راهی برای کمک به الگوریتمهای یادگیری تقویتی با ترکیب آنها با یک مدل زبانی که میتواند دستورالعملها را بخواند، ابداع کرده است و تاکنون آنها در آموزش هوش مصنوعی برای اجرای یک بازی ویدئویی چالش برانگیز آتاری، هزاران بار سریعتر از مدلی که توسط DeepMind ساخته شده است، موفق بودهاند.
یو وو، سرپرست این پژوهش میگوید: کار ما اولین کاری است که امکان یک چارچوب یادگیری تقویتی کاملاً خودکار را برای بهرهمندی از یک دستورالعمل برای یک بازی که به طور گسترده مورد مطالعه قرار گرفته است، نشان میدهد. ما در حال انجام آزمایشهایی روی بازیهای پیچیدهتر دیگری مانند Minecraft هستیم و نتایج امیدوارکنندهای را دیدهایم. ما معتقدیم رویکرد ما باید برای مشکلات پیچیدهتر اعمال شود.
این گروه از پژوهشگران با آموزش یک مدل زبانی برای استخراج و خلاصه کردن اطلاعات کلیدی از کتابچه راهنمای رسمی بازی شروع کرد. سپس از این دادهها برای پرسیدن سؤالات در مورد بازی به یک مدل زبانی از قبل آموزشدیده استفاده شد.
سپس از پاسخهای به دست آمده برای ایجاد پاداشهای اضافی برای الگوریتم تقویت استفاده شد و به یک الگوریتم یادگیری تقویتی تثبیتشده برای کمک به یادگیری سریعتر بازی وارد شد.
پژوهشگران برای ارزیابی رویکرد خود، آن را روی بازی Skiing ۶۰۰۰ آزمایش کردند که در این بازی هوش مصنوعی باید ۸۰ میلیارد فریم از بازی را اجرا میکرد تا به عملکردی قابل مقایسه با یک انسان دست یابد.
در نهایت آنها دریافتند که این رویکرد جدید تنها به ۱۳ میلیون فریم نیاز دارد تا بازی را به پایان برساند.
در این گزارش عنوان شده است که اکنون پژوهشگران به سمت بازیهای سهبعدی پیچیدهتر مانند Minecraft با نتایج اولیه امیدوارکننده رفتهاند و به دنبال ارزیابی این هستند که چگونه پیشرفتهای سریع در مدلهای زبانی هوش مصنوعی میتواند به عنوان یک عامل شتابدهنده برای پیشرفت در این زمینه عمل کند.
این پژوهش در پایگاه پیش از چاپ arXiv منتشر شده است.